חזרה לעמוד הקודם

IDN – מה זה ואיפה זה פוגש אותנו?

דמיינו לעצמכם שיטוט בספרייה העירונית או בחנות הספרים הקרובה לביתכם, כשעל המדפים המוני ספרים עם תוכן מרתק בעברית, אבל כל הכותרות המופיעות על גבי הספרים כתובות באותיות לועזיות, בתעתיק שובר-שיניים. למשל: "’Mishehu Larutz Ito" או "Hatzotzra BaWadi" או אפילו "Sipur Al Ahava Vechoshech". בטח כבר עלו לכם עוד כמה אפשרויות אחרות לתעתק את המילה "חצוצרה", אז חישבו כיצד ניתן לייצג באותיות לטיניות את הביטוי "מחלקת תרבות ואירועים", או את המילים "חילזון", "מטריה" ו"עגבניות".

איך הסיפור הזה קשור אלינו, משתמשי האינטרנט? 

כל מכשיר המחובר לרשת האינטרנט הינו בעל כתובת ייחודית המורכבת מספרות, ממש כמו מספרי טלפון או תעודות זהות. כל המכשירים המחוברים לרשת האינטרנט מתקשרים ביניהם באמצעות כתובות ייחודיות אלו. כך, ניתן להגיע למכשירים אלו (מחשבים למשל) בצורה ישירה. בשל המספר הרב של מכשירים המחוברים לרשת הוחלט על שיטה המקצה מספרים ארוכים יחסית (עד 12 ספרות). לא קל לזכור מספרים אלו, שכאמור מהווים כתובות. הם מכונים כתובות IP – שהן ראשי תיבות של פרוטוקול האינטרנט – INTERNET PROTOCOL (לדוגמה: 192.115.211.45). 

על מנת להקל על המשתמשים להגיע ממחשב למחשב (או בין מכשירים המחוברים לאינטרנט) ולאתר את המיקום של כל אחד ברשת, נבנתה מערכת שנועדה לעזור להם "לאתר" האחד את השני. זוהי מערכת שם המתחם או באנגלית DNS – Domain Name System. תפקיד המערכת הוא מיפוי המספרים הייחודיים (לדוגמה: 192.115.211.45) לשמות אלפאביתיים רגילים הידידותיים יותר לעין ולזכרון של בני-אדם ומכונים "שמות מתחם" (לדוגמה: "isoc.org.il", או "איגוד-האינטרנט.ישראל"). [1]

שמות מתחם – היסטוריה על רגל אחת

ראשיתם של שמות מתחם, המהווים אחד מחלקי הליבה של רשת האינטרנט, שזור בראשיתה של רשת האינטרנט. רשת האינטרנט היא פיתוח של רשת ה-ARPANET שהתפתחה בארצות-הברית בשנות ה-60. [2] כיוון שמקור האינטרנט הוא בארצות-הברית, שמות מתחם נכתבו תחילה באותיות לטיניות (a-z), אליהן צירפו גם ספרות (0-9) ומקף (-) ליצירת אפשרויות מגוונות של שמות. ייצוג התווים הללו ב"שפת מחשב" מכונה ASCII. מאז התפתחה רשת האינטרנט, התרחב השימוש בה ברחבי העולם, גם באזורים שאינם דוברי השפה האנגלית, בהם השליטה במערכת הכתב הלטינית נמוכה או מוגבלת. מה שהשפיע על יכולתם של דוברי שפות אחרות להיות חלק מן המרחב הדיגיטלי, על כל המשתמע מכך.

מאמצע שנות ה-90 החלו לפתח תקנים טכניים ליצירת שמות מתחם בשפות שאינן לטינית. דומיינים כאלה מכונים IDN  (Internationalized domain names). יישום של IDN בעולם, כלומר שמות מתחם המורכבים מתווים שאינם לטינית, החל ברמה השנייה בשנות ה-2000 (תחת הסיומות .com ו-.net) וב-2001 תחת הסיומת המדינתית של יפן (.jp). בעשור שלאחר מכן מספר מרשמים מדינתיים (ccTLDs) החלו גם הם לפרוס שמות מתחם התומכים בשפה המקומית. חלקם התנסו באסטרטגיות אחרות, אך טכנולוגיית ה-IDN העושה שימוש ב-Punycode, הוכיחה עצמה כמנגנון המוצלח ביותר.

מהו Punycode?

Punycode הוא האלגוריתם בו נעשה שימוש להמרת מחרוזת תווים בתקן Unicode למחרוזת תווים בתקן ASCII. אל מחרוזת ה-ASCII המתקבלת לאחר ההמרה מתווספת תחילית "xn--", שמטרתה ליידע שהשם שנכתב הוא תרגום Punycode של מחרוזת ב-Unicode. התוצר המתקבל מכונה "A-Label" או ACE (ASCII Compatible Encoding), שמערכות שמות המתחם (DNS) מבינות. להרחבה ראו סעיף 2.3 ב-RFC 5890.

הפתרון הזה מאפשר להמיר כל תו בקידוד Unicode, אותו מערכת שמות המתחם לא מכירה, לקידוד ASCII, אותו היא כן מכירה. כך למשל, כל טקסט בעברית – שהוא דוגמה לסדרת תווים שאינם בתקן ASCII – יומר למחרוזת של תווים מתקן ASCII בצירוף תחילית "xn--". התוצאה שמתקבלת היא ג'יבריש לבני אדם, אבל בעלת משמעות לשרתים שמפרסמים את שמות המתחם. לבסוף, כך שמות מתחם יכולים להיכתב בכל שפה ולשמש מיליארדי דוברי שפות שונות ברחבי העולם, בזמן שמנגנון תרגום שמות המתחם נותר בבסיסו ללא שינוי. [3]

פריסת IDN ברחבי העולם

זה כמעט שני עשורים ש-IDN היברידיים, כלומר שמות מתחם בהם הרמה השנייה מקודדת ב-Unicode והרמה העליונה מקודדת ב-ASCII (לדוגמה: איגודהאינטרנט.co.il), זמינים לרישום. מצב זה משביע רצון רק עבור שפות המבוססות על תווים לטיניים המשמשים את מרבית השפות האירופיות, שם אלמנט ה- IDN בדרך כלל משקף הטעמה, או סימנים דיאקריטיים אחרים על תווים לטיניים. בגרמנית למשל, המילה bücher משתלבת באופן אלגנטי ונוח ב-IDN היברידי (לדוגמה: bücher.com), אך עבור דוברי שפות שאינן מבוססות על מערכת הכתב הלטינית (למשל, סינית, ערבית או עברית), ה-ASCII/IDN ההיברידיים לא היו מספקים. שפות הנכתבות מימין לשמאל, כמו ערבית ועברית, יצרו שמות מתחם דו-כיווניים בשילוב עם תוספי TLD משמאל לימין, המחייבים את המשתמשים להכיר גם את השפה המקומית וגם תווים לטיניים כדי לנווט באינטרנט. שמות מתחם דו-כיווניים לא רק מחייבים את משתמשי האינטרנט לשנות שפה בעת הקלדת כתובת אינטרנט יחידה, אלא עלולים גם לבלבל את ההיררכיה הקפדנית של מערכת שמות המתחם. [3]

בעקבות לחץ מצד קהילת המרשמים המדינתיים (ה-ccTLD), הציג ICANN (תאגיד האינטרנט המקצה שמות-מתחם ומספרים באינטרנט) תהליך מסלול מהיר ליצירת ccTLDs IDN בשנים 2008-2007, אותו תיעדף בעדיפות עליונה. בשנת 2010 נקט ICANN בצד היסטורי של אישור ccTLDs בשפות מקומיות לארבע מדינות: מצרים, סעודיה, הפדרציה הרוסית ואיחוד האמירויות, כך שאושרו סיומות ברמה העליונה דוגמת مثال.مصر(תרגום: "דוגמה.מצרים"). [3]

מאז החלה האפשרות לרשום שמות-מתחם עם תווים שונים תחת תקן ה-IDN הורחב משמעותית הרישום, ונכון לשנת 2021 קיימים כ-8.6 מיליון שמות מתחם בתקן IDN ברחבי הרשת [4], כאשר מעל כולם מובילה בשימוש ב-IDN סין ולאחריה רוסיה וגרמניה [5]. 

כמות ה-IDN ברשת – שנתי (מתוך: IDN World Report)

לקריאה מורחבת בנושא IDN בישראל ראו: שמות מתחם בעברית – רקע הסטורי

IDN כמקדם רב-לשוניות ברשת

IDN נתפס על ידי רבים כזרז וכצעד הכרחי לקראת השגת אינטרנט רב-לשוני. לפי ארגון אונסק"ו, ב-2008 12 שפות היוו 98% מכלל דפי האינטרנט ברשת, כאשר אנגלית לבדה חלשה על 72% מדפי האינטרנט והייתה לשפה השולטת ברשת. ממחקרים עולה כי בשנים האחרונות ישנה עלייה בנוכחות שפות אחרות ברשת. בשנת 2010 למשל, 20% מהמאמרים בויקיפדיה היו באנגלית, לעומת זאת בדצמבר 2018 נוכחות השפה באתר צנחה והיוותה פחות מ-12% מכלל התוכן. [3]

התומכים ב-IDN מאמינים כי מתן אפשרות למשתמשים לנווט ולגלוש באינטרנט בשפות האם שלהם, יגדיל את הגיוון הלשוני בקרב אוכלוסיית משתמשי האינטרנט, כלומר יותר דוברי שפות שונות ישתמשו באינטרנט. ואכן, מחקר של IDN World Report מציג את הקשר החזק שבין IDN לבין תוכן מקומי בשפות שונות. בגרף המצורף ניתן לראות כי באתרים שהדומיין שלהם הוא IDN מכילים בעיקר תוכן בשפה המקומית, לעומת דומיינים לטיניים (general), שם יותר ממחצית מהתוכן הוא באנגלית. הבר העליון מציג את התפלגות דוברי השפות השונות בקרב אוכלוסיית העולם בכלל.

IDN וגיוון לשוני (מתוך: IDN World Report)

הפיכת האינטרנט למקום נגיש יותר לדוברי שפות שונות משמעותה הכללה של יותר אוכלוסיות בקהילת משתמשי האינטרנט, על כלל היתרונות שבכך; נגישות לסחר מקוון ומגוון, אפשרויות עסקיות נרחבות, חיבור לקהילות מקומיות וכן הפרייה ושימור תרבויות ומסורות באמצעות השפה. ממחקר של ה-UASG משנת 2017 [6] עולה כי החלת IDN ברשת (פריסה ותאימות תשתיתית מלאה) שקולה ל-9.8 מיליארד דולר של הזדמנויות עסקיות, וזו רק ההערכה השמרנית. כלומר, עסקים שישכילו לתמוך ב-IDN ימצבו את עצמם במקום אסטרטגי; ימשכו קהלים מגוונים, בינלאומיים ומקומיים, וימקסמו את הרווח הפוטנציאלי שלהם מאוכלוסיית משתמשי האינטרנט הנוכחית ומהמיליארד הבא שעוד צפוי להתווסף אליה.

מסקר שנערך בישראל על ידי הלמ"ס [7] עולה כי בין 12%-13% מהמשיבים על הסקר דיווחו כי אינם יודעים לדבר, לקרוא או לכתוב באנגלית. נמצא פער בין רמת השליטה של ערבים בדיבור באנגלית לעומת זו של יהודים: 28% מהאוכלוסייה הערבית דיווחו כי אינם יודעים לדבר באנגלית, לעומת 8% בקרב האוכלוסייה היהודית. כמו כן, נמצא כי 19% מהחרדים דיווחו כי אינם יודעים לדבר אנגלית כלל, לעומת 5% בלבד בקרב חילונים. בנוסף, עלה כי צעירים ומשכילים בעלי אוריינות גבוהה יותר באנגלית מאשר מבוגרים יותר ו/או בעלי השכלה בסיסית (שאינה על-תיכונית או גבוהה).

לאור כל אלה, ניתן להעריך ולקוות כי IDN יתרום לצמצום פערים דיגיטליים גם בקרב החברה הישראלית, כאשר גלישה בשמות מתחם עבריים תנגיש את רשת האינטרנט לפלחים נוספים באוכלוסיה שרמת האוריינות שלהם באנגלית נמוכה. סיוע בהנגשת הרשת עשויה לפתוח בפניהם בין היתר גם אפשרויות תעסוקה, לתרום לשילובם בקהילות הדיגיטליות המתפתחות ולקרבם לשלל יתרונות הרשת הנוספים.

האתגרים הטכנולוגיים עוד כאן

למרות העובדה ש-IDN נמצא בשימוש מזה כשני עשורים במרשמים שונים ברחבי העולם, משתמשי IDN מתמודדים עם אתגר משמעותי. פתרונות טכנולוגיים רבים עדיין מתקשים לזהות IDN כדומיין תקף, כולל IDN בהם נעשה שימוש לתיבות דוא"ל. לעתים זוהי תוצאה של יישומים או כלים לא מעודכנים, שאינם מסונכרנים עם תקנים חדשים התומכים ב-IDN. לעתים גם פיתוחים חדשים אינם מוגדרים לתמוך ב-IDN או דומיינים בתצורות חדשות, כיוון שמפתחים רבים כלל לא מודעים להתפתחויות החדשות בעולם הדומיינים בכלל והשימוש ב-IDN בפרט. אתגרים טכניים נוספים נוגעים לווריאנטים אפשריים בשפות שונות (למשל האותיות ا ו-أ בערבית). [8]

הרעיון התיאורטי והמצב האידיאלי לפיו כל שמות המתחם וכתובות הדואר-האלקטרוני בכל השפות בעולם יעבדו בכל יישומי המחשב מכונה "Universal Acceptance", או בתרגום חופשי "תאימות גלובלית". למען קידום הרעיון קמו פורומים ויוזמות בינלאומיות בקהילת האינטרנט העולמית, דוגמת UASG (Universal Acceptance Steering Group) ו-IDN World report, שחוקרים את תאימותן של תשתיות אינטרנט שונות ל-IDN ומקדמים זאת על ידי העלאת המודעות בקרב נותני השירותים השונים (ספקי דפדפנים, תיבות דוא"ל, תקנים של שפות תכנות ועוד). חלק מהיוזמות ממומנות על ידי הארגון ICANN, שרק לאחרונה חתם על מזכר-הבנות עם המרשם האירופי (EURid), לשיתוף פעולה בכל הנוגע לקידום IDN ושפות שאינן לטיניות במרחב האינטרנטי. 

דפדפנים

בדיקות שנערכו על דפדפנים פופולאריים על ידי ה-UASG במערכות-הפעלה שונות, מראות שמרביתם תומכים בהצגה וניווט על ידי IDN. חלק מהדומיינים שנכתבים מימין לשמאל, כמו עברית וערבית, לא הוצגו כראוי, אבל ייתכן והפתרון מצוי בהגדרות תצוגה הניתנות לשינוי.

בנוסף, נראה כי מרבית הדפדפנים גם תומכים בשמירת סימניות (bookmarks) של דומיינים IDN, אך חלקם שומרים את הדומיין בתצורה של Punycode (הכתובת המומרת עם התחילית –xn), מה שמגביל את נוחות השימוש בהם. עוד עולה, כי גלישה בנייד מוגבלת יותר לעומת גלישה במחשב, מאחר ומערכות ההפעלה בניידים תומכות פחות ב-IDN. 

בהקשר זה יש לציין כי השימוש בתווים משפות שונות מאפשר גם לנצל לרעה דומיינים לשם הטעייה מכוונת והונאה של משתמשים. הסוגייה הזו פחות רלוונטית לעברית ויותר למערכות כתב החולקות אותיות עם מערכות כתב אחרות, דוגמת לטינית וקירילית. כך למשל, ייצוג המילה apple בדומיין apple.com יכול להיכתב בחלקו גם באותיות קיריליות (аррle, באמצעות "р" הקירילית מייצגת את צליל הקרוב ל"ר" העברית) ולהיתפס בעיניי הגולש הממוצע כ-apple הלטיני. בעל הדומיין עשוי לנצל את הקושי בהבחנה של המשתמש ולהפנות אותו לאתר מתחזה. 

הבשורה הטובה היא שדפדפנים עדכניים יודעים להתמודד עם הסוגייה ולהגן על הגולש באמצעות בדיקות אוטומטיות שונות של הדומיינים, למשל על ידי מנגנון המוודא כי הדומיין אינו מכיל תווים מכמה מערכות כתב שונות. דומיין הנמצא חשוד יוצג למשל בתצורה המומרת (עם התחילית xn--), או שהמשתמש יקבל בדפדפן הודעת-אזהרה מסויימת המתריעה בפניו כניסה לדומיין מתחזה. [9][10]

באופן כללי, יש לזכור כי אם בעבר היה הדפדפן השער אל רשת האינטרנט, בימינו אנו נמצאים בתקופה שבה ה-IoT (The Internet of Things) מתפתח והשימוש בו גדל. מכשירים שונים מחוברים לאינטרנט וניתן למצוא דפדפנים ברכבים, טאבלטים, שעונים ועוד. לכן יש לקחת בחשבון שגם אלו צריכים לתמוך ב-IDN, ולא בטוח שהם תומכים ברמה שדפדפנים המותקנים על מחשבים נייחים וניידים תומכים בו. [11]

לעיון בממצאי הבדיקות, כולל פירוט הדפדפנים התומכים ב-IDN ראו דו"ח של UASG.

דואר אלקטרוני

דואר אלקטרוני הנכתב באותיות שאינן לטינית מכונה EAI – Email Address Internationalization. ישנם שני אתגרים עיקריים המגבילים שימוש חופשי ונטול-תקלות: 

  1. מצד הלקוח (client software) – התוכנה צריכה להיות מסוגלת להציג, לעבד ולאחסן כתובות בינלאומיות. למשל, להציג כתובת דוא"ל EAI בתווי Unicode אבל לשדר את שם המתחם לשרת הדואר ב-Punycode.
  2. מצד השרת (server software) – התוכנה צריכה לתמוך ב-EAI ולאפשר העברה של של דואר באופן כזה השומר על הכתובת להופיע כ-EAI.

לכן יש לקחת בחשבון כי גם אם בדפדפן אחד ניתן לשלוח ולקבל דוא"ל בדומיין בעברית, ייתכן ואצל משתמש אחר הדבר לא יתאפשר, בהתאם לתוכנה בה הוא משתמש. [12]

לעיון בממצאי הבדיקות, כולל פירוט השירותים התומכים בדוא"ל IDN ראו דו"ח של UASG (שקף 23).

רשתות חברתיות

רשתות חברתיות הפכו בעשור האחרון לזירה מרכזית בגלישה שלנו ברשת האינטרנט. אך האם מעצם היותן כה פופולאריות הן צפויות בהכרח לתמוך באופן מלא ב-IDN? 

מהבדיקה האחרונה שנערכה על ידי UASG עולה כי באף אחת מהרשתות החברתיות לא ניתן להירשם עם כתובות דוא"ל EAI. תמונה מעט יותר אופטימית, אך גם מורכבת, עולה בכל הנוגע להצגת IDN כקישורים לחיצים ותקינים (hyperlinks), אשר הובילו לכתובת המבוקשת. בין כלל הרשתות שנבדקו היו גם פייסבוק, אינסטגרם, וואטסאפ, יוטיוב, לינקדאין, טלגרם וטיקטוק. מכולן, טלגרם נמצאה כתומכת ביותר ב-IDN, ומיד אחריה במקום השני ניצבות לינקדאין, פייסבוק וטוויטר. 

גם בבדיקה זו נמצאו הבדלים בתמיכה ב-IDN בין גלישה ברשתות החברתיות במכשירים נייחים לבין שימוש ביישומים על גבי מכשירי סלולר ניידים. להבדיל מגלישה בדפדפנים שונים במכשירים שונים (וכתוצאה מכך במערכות הפעלה שונות), דווקא יישומים של רשתות חברתיות לנייד נמצאו בעלי תמיכה גבוהה יותר בפרסום תוכן הכולל IDN. 

לעיון בממצאי הבדיקות, כולל פירוט הרשתות התומכות ב-IDN ראו דו"ח של UASG (שקף 6).

למיטיבי לכת, בדיקות תאימות דומות נערכו גם על שפות תכנות (C, C#, Java, Python, Rust ועוד) וספריות או סביבות פיתוח שונות ב-Linux, Windows, iOS ו-Android. ניתן לעיין בממצאים בפירוט בדו"ח של UASG.

 

מקורות

[1] מהו דומיין? מאמר על שמות מתחם ומערכת ה-DNS:י https://www.isoc.org.il/domain-name-registry/domain-name

[2] ערך ARPANET בויקיפדיה: https://he.wikipedia.org/wiki/ARPANET

[3] סקירה כללית על IDN באתר IDN World Report:יhttps://idnworldreport.eu/about/intr…

[4] כמות IDN ברשת לפי שנה: https://idnworldreport.eu/charts/idn-numbers/idn-totals-by-year

[5] 20 מרחבי ה-IDN המובילים: https://idnworldreport.eu/charts/idn-numbers/top-20-idn-spaces/

[6] רלוונטיות חברתית, הזמנויות עסקיות והזדמנויות תעסוקה בעקבות IDN:י https://uasg.tech/download/uasg-038-universal-acceptance-ua-messaging-for-social-relevancy-business-opportunities-and-career-opportunities/

[7] רמת השליטה בשפה האנגלית בישראל – נתונים מתוך סקר מיומנויות בוגרים בישראל, 2014-2015, פורסם באוקטובר 2017: https://www.cbs.gov.il/he/mediarelease/Doc…

[8] IDN – תמונת מצב (יוני 2021), ICANN: https://www.icann.org/en/system/files/files/idns-where-are-we-now-16jun…

[9] מדיניות Google Chrome לגבי הצגת IDN והגנה על משתמשים מפני ניצול לרעה של דומיינים:

https://chromium.googlesource.com/chromiu… 

[10] מדיניות Mozilla Firefox לגבי הצגת IDN והגנה על משתמשים מפני ניצול לרעה של דומיינים:

https://wiki.mozilla.org/IDN_Display… 

[11] Universal Acceptance – Browsers:י https://idnworldreport.eu/universal-acceptance/browsers/

[12] Universal Acceptance – Email:י https://idnworldreport.eu/universal-acceptance/email/ 

 

הפניות לקריאה נוספת